reference resolution in dialogues

2020-02-24

Dialogue System

本文主要介绍了多轮对话系统中的指代问题，整理了一些相关文章，包括数据集和方法。

A dataset for resolving referring expressions in spoken dialogue via contextual query rewrites (CQR)

Introduction

在多轮对话系统中，用户在交互的一个轮次里可能给与不完整信息，而剩下的槽值需要根据上下文指代关系来提取，例如：

这种指代关系可以分为显式指代(explicit reference)和隐式指代(implicit reference or zero anaphora)，其中显式指代又分为：

名词回指：nominal anaphoric reference (“that coffee shop”)
位置词：locative form (“there”)
代词：pronominal form(e.g., “it”)

本文的核心贡献是引入了 CQR(contextual query rewrites) 任务来解决对话中的指代问题，避免slot value的carryover，进而促进对话建模；收集了一个CQR数据集：https://github.com/alexa/alexa-dataset-contextual-query-rewrite 。

CQR任务定义：

输入：前D轮对话，当前轮用户输入，以及与之相关的槽值集合。
输出：改写后的当前轮用户输入。

CQR任务的难点在于改写过程需要隐式地选择与当前轮相关的槽值。

Dataset && Experiment

因为本文的重点是CQR对于对话建模的促进作用，所以论文没有提出任何CQR模型，只是利用人工标注的CQR数据集验证了对下游任务的促进作用。

数据集统计：领域以及对应的槽 Weather (location, date, weather attribute); Navigation (point of interest type, point of interest, address, traffic information, distance); and Calendar scheduling (date, time, location, party, agenda)

在SLU任务上的实验结果：（Original和Gold CQR分别代表同样的SLU模型运行在原始的数据集和改写后的数据集，相当于多轮对话转化为单轮）

Scaling Multi-Domain Dialogue State Tracking via Query Reformulation

本文是上篇论文的续作（均出自Amazon Alexa），主要引入了pointer-generator模型来解决CQR任务。
模型结构：
实验结果：

Improving Multi-turn Dialogue Modelling with Utterance ReWriter

为了解决多轮对话中的共指关系和信息缺失的问题，本文的思路是训练一个言语重写器将多轮对话转换成单轮对话，其目的就和下图所示，将Utterance3改成Utterrance3`。由于把信息补全了，所以此时的多轮就相当于单轮对话了，将其输入到对话系统中，就可以按照单轮对话来处理了。
为了训练语言重写器，文章创建了包含2万个多轮对话数据集，并且每句话都是成对的存在的。数据集统计：
提出了一种高效的基于转换的话语改写器，其性能优于其它几个比较强的基线版本。模型结构：
实验结果：

利用重写后的数据集进行下游任务：